Probabilidad y Estadística: La Ciencia de la Incertidumbre: Definir Relaciones a Través de Distribuciones Condicionales

Bienvenido a un cambio de paradigma en estadística. Estamos avanzando más allá de la intuición simple de "líneas de tendencia" hacia un marco riguroso Marco de Distribución. Aquí, definimos una relación no solo por un coeficiente de correlación, sino como cualquier cambio en el comportamiento probabilístico de una variable respuesta $Y$ cuando se varía la variable predictora $X$.

Definición 10.1.1: El Vínculo Estadístico

Dos variables $X$ y $Y$ se consideran relacionadas si hay cualquier cambio en la distribución condicional de $Y$, dado $X = x$, al cambiar $x$. Por el contrario, un estado de "sin relación" es matemáticamente equivalente a la independencia de $X$ y $Y$.

Equivalencia Lógica

Las variables $X$ y $Y$ son independientes si y solo si $f(y|x) = f(y)$ para todos los valores de $x$. Esto implica que la función de frecuencia relativa conjunta puede factorizarse como:

$$f(x, y) = f(x)f(y)$$

Por lo tanto, probar una relación es fundamentalmente una prueba de Independencia.

Mecanismos de Cambio

Una relación se identifica por cualquier cambio en la función de densidad condicional (como se muestra en la Figura 10.1.1). Esto incluye:

Desplazamiento de la Media: El valor esperado $E(Y|X)$ cambia (el enfoque más común).
Desplazamiento de la Varianza: La dispersión o incertidumbre de $Y$ depende de $X$ (heterocedasticidad).
Cambio de Forma: La distribución general se transforma (por ejemplo, de simétrica a sesgada).

Establecer Causalidad a través del Diseño

Una relación estadística no implica causalidad. Para afirmar que $X causa $Y$, debemos tener en cuenta las variables de confusión mediante el Diseño de Experimentos:

Tratamientos de Control: Proporciona una base de comparación.
Efecto Placebo: Mitigación de la mejora percibida mediante tratamientos inactivos.
Cegamiento: Usando experimentos ciegos (los receptores desconciertos) y experimentos doble ciegos (receptores y investigadores desconciertos) para eliminar sesgos.
Bloqueo: Como se observa en Ejemplo 10.1.7, usamos variables de bloqueo ($W$, como la fertilidad del suelo) para asegurar que la relación entre el tipo de trigo ($X$) y el rendimiento ($Y$) no esté confundida por condiciones previas.

🎯 Estimación Matemática Fundamental

Estimamos estos vínculos usando Verosimilitud Condicional funciones. Para datos discretos con conteos $f_{ij}$:

$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ Error Estándar: $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$

PREGUNTA 1

Según la Definición 10.1.1, ¿qué debe suceder para que $X$ y $Y$ se consideren relacionadas?

El coeficiente de correlación entre $X$ y $Y$ debe ser exactamente 1.

La distribución condicional de $Y$ dada $X=x$ debe cambiar de alguna manera al variar $x$.

$X$ y $Y$ deben tener una relación funcional $Y = g(X)$ donde $g$ sea lineal.

$X$ y $Y$ deben ser independientes.

PREGUNTA 2

Supongamos que $Y$ tiene una distribución condicional dada $X$ especificada por $N(1 + 2x, |x|)$ cuando $X = x$. ¿Son $X$ y $Y$ relacionadas?

Sí, porque la media ($1+2x$) y la varianza ($|x|$) cambian ambas al variar $x$.

No, porque $N$ siempre es una distribución normal.

Solo si $x$ es un número entero positivo.

No, porque son independientes.

PREGUNTA 3

En un ensayo clínico, ¿cuál es el propósito de un experimento 'doble ciego'?

Para asegurar que el tamaño de muestra se duplique para mejorar la potencia de la prueba.

Para evitar que tanto los sujetos como los investigadores sepan quién recibió el tratamiento o el placebo.

Para asegurarse de que solo se prueben dos dosis diferentes.

Para satisfacer los requisitos de una función de verosimilitud multinomial.

PREGUNTA 4

¿Por qué el enfoque funcional $Y = g(X)$ es a menudo insuficiente para aplicaciones estadísticas prácticas?

Porque las funciones matemáticas no pueden usarse en estadística.

Porque las relaciones del mundo real implican incertidumbre estocástica o factores no observados que $g(x)$ no captura.

Porque $g(X)$ siempre requiere que $X$ sea una variable categórica.

Porque las funciones de verosimilitud solo funcionan para variables independientes.

PREGUNTA 5

Supongamos que $X$ toma los valores 1 y 2, y las distribuciones condicionales de $Y$ dado $X$ son $N(0, 5)$ cuando $X = 1$, y $N(0, 7)$ cuando $X = 2$. ¿Tienen $X$ y $Y$ una relación?

No, porque la media es 0 en ambos casos.

Sí, porque la varianza (la dispersión) de $Y$ cambia de 5 a 7.

No, porque una relación requiere un cambio en el valor esperado.

Solo si $Y$ es una variable discreta.